智能论文笔记

了解训练算法的隐性偏见对于解释过多散热性神经网络的成功至关重要。在本文中，我们研究了标签噪声在通过其连续时间版本的四次参数化模型的训练动力学中的作用。我们明确表征由随机流选择的解决方案，并证明它隐含地解决了套索程序。为了充分完成我们的分析，我们为动力学提供非沉积收敛保证以及支持恢复的条件。我们还提供了支持我们理论主张的实验结果。我们的发现强调了一个事实，即结构化噪声可以引起更好的概括，并有助于解释在实践中观察到的随机动力学的更大性能。

translated by 谷歌翻译

Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of Stochasticity

Scott Pesme , Loucas Pillaud-Vivien , Nicolas Flammarion

分类：机器学习

2021-06-17

了解培训算法的隐含偏差至关重要，以解释过度分化的神经网络的成功。在本文中，我们通过连续时间版本，即随机梯度流来研究对对角线线性网络的随机梯度下降的动态。我们明确地表征了随机流动选择的解决方案，并证明它总是享有比梯度流量更好的泛化特性。令人惊讶的是，我们表明训练损失的收敛速度控制了偏置效果的大小：收敛速度较慢，偏置越好。要完全完成我们的分析，我们提供动态的收敛保证。我们还提供了支持我们的理论索赔的实验结果。我们的研究结果强调了结构化噪音可以引起更好的概括，并且它们有助于解释在梯度下降的随机梯度下降方面观察到的更大表现。

translated by 谷歌翻译

由于数据的注释可以在大规模的实际问题中稀缺，利用未标记的示例是机器学习中最重要的方面之一。这是半监督学习的目的。从访问未标记数据的访问中受益，它很自然地弥漫将标记数据平稳地知识到未标记的数据。这诱导了Laplacian正规化的使用。然而，Laplacian正则化的当前实施遭受了几种缺点，特别是众所周知的维度诅咒。在本文中，我们提供了统计分析以克服这些问题，并揭示了具有所需行为的大型光谱滤波方法。它们通过（再现）内核方法来实现，我们提供了现实的计算指南，以使我们的方法可用于大量数据。

translated by 谷歌翻译